767_count_domens by vovanbravin · Pull Request #788 · moevm/document_insight_system

vovanbravin · 2026-01-30T11:02:49Z

No description provided.

vovanbravin · 2026-02-13T11:18:51Z

Запрещенные домены не добавлял проверку, так как есть уже критерий banned_words_in_lit, который уже проверяет это момент (тестировал).

HadronCollider

Исправьте логику в #776 и подтяните изменения
После поставьте лейбл "need_review"

HadronCollider · 2026-03-17T14:24:15Z

        return start_index

+    def find_domains(self, sources: str):
+        pattern = r'(?:https?|ftp)?://([^/\s?#]+)'


Вынесите в поле класса

HadronCollider · 2026-03-17T14:24:48Z

+        if match and match.group(1):
+            self.literature_domains.append(match.group(1))
+        else:
+            self.literature_domains.append('') #чтобы можно было определить номер


Сократите до 1 строки (тернарный оператор)

HadronCollider · 2026-03-17T14:37:22Z

                break
        return start_index

+    def find_domains(self, sources: str):


смысла в этой функции как методе класса - 0 (он ещё и меняет состояние объекта, хотя вроде как должен просто найти домены) - проще regexp использовать в count_sources_*, и self.literature_domains.append делать там же (там будет и доступ к индексу)

HadronCollider · 2026-03-17T14:38:36Z

+        if match and match.group(1):
+            self.literature_domains.append(match.group(1))
+        else:
+            self.literature_domains.append('') #чтобы можно было определить номер


Чтобы определить номер, достаточно хранить его - вместе с доменом, иначе у вас есть список из 100 пустых строк (=много источников), потому что доменов среди нет нет

HadronCollider · 2026-03-17T14:42:29Z

-        counter = Counter([text.lower() for text in self.literature_reference_text])
+    def checking_duplicate_sources(self, sources: list[str], max_count: int) -> list:
+        """Функция нахождения дубликатов в определенных позициях"""
+        counter = Counter([text.lower() for text in sources])


замените лист на генератор - он будет работать быстрее и меньше займет памяти

HadronCollider · 2026-03-17T14:43:47Z

        for text, count in counter.items():
-            if count >= 2:
-                positions_duplicates = [i + 1 for i, text_in_ref in enumerate(self.literature_reference_text) if text == text_in_ref.lower()]
+            if count >= max_count and text != '':


Чтобы не делать на каждом шаге итерации сравнение text != '' - можно ещё на этапе формирования Counter не добавлять эти строки (например, фильтруя text.lower() for text in sources if text.strip())

HadronCollider · 2026-03-17T14:44:58Z

-    def checking_duplicate_sources(self) -> list:
-        """Функция нахождения дубликатов в источниках"""
-        counter = Counter([text.lower() for text in self.literature_reference_text])
+    def checking_duplicate_sources(self, sources: list[str], max_count: int) -> list:


добавьте для max_count значение по умолчанию (= исходная логика с дубликатами источников)

HadronCollider · 2026-06-03T14:06:33Z

    def count_sources_vkr(self, header):
        literature_counter = 0
        if not len(header["child"]):
            return literature_counter
        for child in header["child"]:
            if child["text"].startswith('ПРИЛОЖЕНИЕ'):
                break
            # if re.search(f"дата обращения", child["text"].lower()):
            literature_counter += 1
-            self.literature_reference_text.append(child["text"])
+            self.literature_reference_text.append((literature_counter, child["text"]))
+            domain_match = re.search(self.domain_pattern, child["text"], re.IGNORECASE)
+
+            if domain_match and domain_match.group(1):
+                self.literature_domains.append((literature_counter, domain_match.group(1)))
+
        return literature_counter

    def count_sources(self):
        literature_counter = 0
        start_page, end_page = self.search_literature_start_pdf()
        for i in range(start_page, end_page + 1):
            one_page = self.file.pdf_file.text_on_page[i].split('\n')
            first_string = -1
            last_string = len(one_page)

            for j in range(len(one_page)):
                one_str_lowercase = one_page[j].lower()
                if re.search(self.name_pattern, one_str_lowercase):
                    first_string = j
                    break
            for j in range(first_string, len(one_page)):
                if re.search('приложение а[\n .]', one_page[j].lower()):
                    last_string = j
                    break

            for ind in range(first_string + 1, last_string):
                if re.match(f"{literature_counter + 1}.", one_page[ind]):
                    literature_counter += 1
-                    self.literature_reference_text.append(one_page[ind])
+                    self.literature_reference_text.append((literature_counter, one_page[ind]))
+                    domain_match = re.search(self.domain_pattern, one_page[ind])
+                    if domain_match and domain_match.group(1):
+                        self.literature_domains.append((literature_counter, domain_match.group(1)))
+
        return literature_counter


сделайте один итоговый метод, который будет поддерживать всё (и docx с вкр/лр и markdown) читая только текст (а не пдф)

никакого смысла в разделении логики нет

HadronCollider · 2026-06-03T14:10:36Z

+        for number, domain in sources:
+            if domain not in domain_to_numbers:
+                domain_to_numbers[domain] = []
+            domain_to_numbers[domain].append(number)


достаточно сделать

for number, domain in sources: domain_to_numbers.setdefault(domain, []).append(number)

HadronCollider · 2026-06-03T14:26:10Z

+        duplicates_domains = self.checking_duplicate_sources(self.literature_domains, self.max_count_domains)
        references, ref_sequence = self.search_references(start_literature_par)
        all_numbers = set(range(1, number_of_sources + 1))
        if len(references.symmetric_difference(all_numbers)) == 0:


Сделайте логику ниже единой и непрерываемой на середине

проверяется одно условие -> по нему добавляется фидбек -> проверяется следующее условие -> и так далее

после всего -> return+answer'a было только два

иначе сейчас одна проверка делает return - остальные не запускаются

767_count_domens

c2e0e67

HadronCollider requested changes Feb 15, 2026

View reviewed changes

github-actions Bot added the has conflicts if new merge has conflicts label Mar 13, 2026

vovanbravin added need_review and removed has conflicts if new merge has conflicts labels Mar 13, 2026

HadronCollider changed the base branch from 762_duplicate_literature_references to dev March 16, 2026 18:04

vovanbravin requested a review from HadronCollider March 17, 2026 11:29

HadronCollider requested changes Mar 17, 2026

View reviewed changes

HadronCollider added Changes requested and removed need_review labels Mar 17, 2026

vovanbravin added 2 commits April 24, 2026 12:39

corrected comments

f3afd2e

Merge branch 'dev' into 767_count_domens

1aa4a13

vovanbravin force-pushed the 767_count_domens branch from 8c9ae65 to 1aa4a13 Compare April 24, 2026 09:58

vovanbravin added need_review and removed Changes requested labels Apr 24, 2026

vovanbravin requested a review from HadronCollider April 24, 2026 10:07

github-actions Bot added the has conflicts if new merge has conflicts label May 4, 2026

HadronCollider requested changes Jun 3, 2026

View reviewed changes

HadronCollider added Changes requested and removed need_review labels Jun 3, 2026

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

767_count_domens#788

767_count_domens#788
vovanbravin wants to merge 3 commits into
devfrom
767_count_domens

vovanbravin commented Jan 30, 2026

Uh oh!

vovanbravin commented Feb 13, 2026

Uh oh!

HadronCollider left a comment

Uh oh!

HadronCollider Mar 17, 2026

Uh oh!

HadronCollider Mar 17, 2026

Uh oh!

HadronCollider Mar 17, 2026

Uh oh!

HadronCollider Mar 17, 2026

Uh oh!

HadronCollider Mar 17, 2026

Uh oh!

HadronCollider Mar 17, 2026

Uh oh!

HadronCollider Mar 17, 2026

Uh oh!

HadronCollider Jun 3, 2026

Uh oh!

HadronCollider Jun 3, 2026

Uh oh!

HadronCollider Jun 3, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

vovanbravin commented Jan 30, 2026

Uh oh!

vovanbravin commented Feb 13, 2026

Uh oh!

HadronCollider left a comment

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants